Transformer的加速
37
[1] X. Yang, B. Yan, H. Li, and Y. Chen, “ReTransformer: ReRAM-based processing-in-memory architecture for
transformer acceleration,” in Proceedings of the 39th International Conference on Computer-Aided Design, in ICCAD ’20.
New York, NY, USA: Association for Computing Machinery, Dec. 2020, pp. 1–9. doi: 10.1145/3400302.3415640.
针对通用CNN和RNN设计的加速器不能直接用于Transformer[1]:
•Transformer中有大量矩阵乘矩阵,而且其中的参数都是来自上一层的中间结
果,先前设计的加速器需要重新编程计算阵列的权重。
•Transformer引入了缩放点积注意力,计算模式更复杂。
•先前设计的加速器流水线粒度是层,对于transformer来说较粗。
本文的贡献:
•提出了ReTransformer,基于ReRAM的存内计算架构,用于加速
Transformer的推理
•使用矩阵分解优化缩放点积注意力中的矩阵乘法,消除数据依赖,降低计算
延迟
•使用存内计算实现的逻辑计算来实现混合softmax
•子矩阵级的流水线粒度